We propose RANA, a relightable and articulated neural avatar for the photorealistic synthesis of humans under arbitrary viewpoints, body poses, and lighting. We only require a short video clip of the person to create the avatar and assume no knowledge about the lighting environment. We present a novel framework to model humans while disentangling their geometry, texture, and also lighting environment from monocular RGB videos. To simplify this otherwise ill-posed task we first estimate the coarse geometry and texture of the person via SMPL+D model fitting and then learn an articulated neural representation for photorealistic image generation. RANA first generates the normal and albedo maps of the person in any given target body pose and then uses spherical harmonics lighting to generate the shaded image in the target lighting environment. We also propose to pretrain RANA using synthetic images and demonstrate that it leads to better disentanglement between geometry and texture while also improving robustness to novel body poses. Finally, we also present a new photorealistic synthetic dataset, Relighting Humans, to quantitatively evaluate the performance of the proposed approach.
translated by 谷歌翻译
Denoising diffusion models hold great promise for generating diverse and realistic human motions. However, existing motion diffusion models largely disregard the laws of physics in the diffusion process and often generate physically-implausible motions with pronounced artifacts such as floating, foot sliding, and ground penetration. This seriously impacts the quality of generated motions and limits their real-world application. To address this issue, we present a novel physics-guided motion diffusion model (PhysDiff), which incorporates physical constraints into the diffusion process. Specifically, we propose a physics-based motion projection module that uses motion imitation in a physics simulator to project the denoised motion of a diffusion step to a physically-plausible motion. The projected motion is further used in the next diffusion step to guide the denoising diffusion process. Intuitively, the use of physics in our model iteratively pulls the motion toward a physically-plausible space. Experiments on large-scale human motion datasets show that our approach achieves state-of-the-art motion quality and improves physical plausibility drastically (>78% for all datasets).
translated by 谷歌翻译
鉴于一个人的肖像图像和目标照明的环境图,肖像重新旨在重新刷新图像中的人,就好像该人出现在具有目标照明的环境中一样。为了获得高质量的结果,最近的方法依靠深度学习。一种有效的方法是用高保真输入输出对的高保真数据集监督对深神经网络的培训,并以光阶段捕获。但是,获取此类数据需要昂贵的特殊捕获钻机和耗时的工作,从而限制了对少数机智的实验室的访问。为了解决限制,我们提出了一种新方法,该方法可以与最新的(SOTA)重新确定方法相提并论,而无需光阶段。我们的方法基于这样的意识到,肖像图像的成功重新重新取决于两个条件。首先,该方法需要模仿基于物理的重新考虑的行为。其次,输出必须是逼真的。为了满足第一个条件,我们建议通过通过虚拟光阶段生成的训练数据来训练重新网络,该培训数据在不同的环境图下对各种3D合成人体进行了基于物理的渲染。为了满足第二种条件,我们开发了一种新型的合成对真实方法,以将光真实主义带入重新定向网络输出。除了获得SOTA结果外,我们的方法还提供了与先前方法相比的几个优点,包括可控的眼镜和更暂时的结果以重新欣赏视频。
translated by 谷歌翻译
我们考虑了户外照明估算的挑战性问题,即影像逼真的虚拟对象将其插入照片中的目标。现有在室外照明估计的作品通常将场景照明简化为环境图,该图无法捕获室外场景中的空间变化的照明效果。在这项工作中,我们提出了一种神经方法,该方法可以从单个图像中估算5D HDR光场,以及一个可区分的对象插入公式,该公式可以通过基于图像的损失来端对端训练,从而鼓励现实主义。具体而言,我们设计了针对室外场景量身定制的混合照明表示,其中包含一个HDR Sky Dome,可处理太阳的极端强度,并具有体积的照明表示,该代表模拟了周围场景的空间变化外观。通过估计的照明,我们的阴影感知对象插入是完全可区分的,这使得对复合图像的对抗训练可以为照明预测提供其他监督信号。我们在实验上证明,混合照明表示比现有的室外照明估计方法更具性能。我们进一步显示了AR对象插入在自主驾驶应用程序中的好处,在对我们的增强数据进行培训时,我们可以在其中获得3D对象检测器的性能提高。
translated by 谷歌翻译
我们提出了全球环境视觉变压器(GC VIT),这是一种新的结构,可增强参数和计算利用率。我们的方法利用了与本地自我注意的联合的全球自我发项模块,以有效但有效地建模长和短距离的空间相互作用,而无需昂贵的操作,例如计算注意力面罩或移动本地窗户。此外,我们通过建议在我们的体系结构中使用修改后的融合倒置残差块来解决VIT中缺乏归纳偏差的问题。我们提出的GC VIT在图像分类,对象检测和语义分割任务中实现了最新的结果。在用于分类的ImagEnet-1k数据集上,基本,小而微小的GC VIT,$ 28 $ M,$ 51 $ M和$ 90 $ M参数实现$ \ textbf {83.2 \%} $,$ \ textbf {83.9 \%} $和$ \ textbf {84.4 \%} $ top-1的精度,超过了相当大的先前艺术,例如基于CNN的Convnext和基于VIT的Swin Transformer,其优势大大。在对象检测,实例分割和使用MS Coco和ADE20K数据集的下游任务中,预训练的GC VIT主机在对象检测,实例分割和语义分割的任务中始终如一地超过事务,有时是通过大余量。可在https://github.com/nvlabs/gcvit上获得代码。
translated by 谷歌翻译
分组和识别是视觉场景理解的重要组成部分,例如,用于对象检测和语义分割。借助端到端的深度学习系统,图像区域的分组通常通过像素级识别标签的自上而下的监督隐式进行。取而代之的是,在本文中,我们建议将分组机制恢复到深层网络中,从而使语义片段仅在文本监督下自动出现。我们提出了一个分层分组视觉变压器(GroupVit),它超出了常规的网格结构表示,并学会了将图像区域分组为逐渐更大的任意形状段。我们通过对比度损失在大规模图像文本数据集上与文本编码器共同训练小组vit。只有文本监督并且没有任何像素级注释,GroupVit就学会了将语义区域分组在一起,并以零拍的方式成功地将语义分割的任务转移到语义分割的任务,即,而没有任何进一步的微调。它在Pascal VOC 2012上获得了52.3%MIOU的零拍摄精度和Pascal上下文数据集中的22.4%MIOU,并竞争性地表现为需要更高水平监督的最先进的转移学习方法。我们在https://github.com/nvlabs/groupvit上开放代码。
translated by 谷歌翻译
我们介绍了ADAVIT,一种可自适应地调整视觉变压器(VIT)推理成本的方法,用于不同复杂性的图像。 Adavit通过自动减少在网络中处理的视觉变压器中的令牌数量作为推理进行的令牌的数量来实现这一目标。我们为此任务进行重新格式化自适应计算时间(ACT),扩展为丢弃冗余空间令牌。视觉变换器的吸引力架构属性使我们的自适应令牌减少机制能够加速推理而不修改网络架构或推理硬件。我们展示了ADAVIT不需要额外的参数或子网来停止,因为我们基于自适应停止在原始网络参数上的学习。我们进一步引入了与现有行为方法相比稳定培训的分布先前正则化。在图像分类任务(ImageNet1K)上,我们表明我们提出的Adavit在过滤信息丰富的空间特征和削减整体计算上产生了高效率。所提出的方法将Deit-Tiny的吞吐量提高了62%并除去了38%,只有0.3%的精度下降,优于大边距。
translated by 谷歌翻译
我们提出了一种从动态摄像机记录的单像素视频中恢复的3D全局人体网格恢复方法。即使在镜头的视野之外,我们的方法也适于严重和长期闭塞,并使人体追踪人体。为实现这一目标,我们首先提出了一种深入的生成运动infiller,该infill是基于可见运动的自向填充遮挡人体的身体运动。另外,与事先工作相比,我们的方法即使用动态摄像机也将在一致的全局坐标中重建人体网格。由于人类动作和相机姿势的联合重建是受到的,我们提出了一种全球轨迹预测因素,以基于当地机身运动产生全球人类轨迹。使用预测的轨迹作为锚点,我们介绍了一种全局优化框架,它可以改进预测的轨迹,并优化相机姿势以匹配诸如2D关键点之类的视频证据。具有动态摄像机的挑战性挑战和野外数据集的实验表明,在运动缺陷和全局网格恢复方面,所提出的方法显着优于现有方法。
translated by 谷歌翻译
我们提出了一种新颖的场景表示,其编码达到距离 - 沿着可行轨迹的场景中的任何位置之间的距离。我们证明,该环境现场表示可以直接指导2D迷宫或3D室内场景中代理的动态行为。我们的环境领域是一种连续表示,通过使用离散采样的培训数据通过神经隐式功能学习。我们展示其在2D迷宫中的代理导航应用,3D室内环境中的人为轨迹预测。为了为人类生产物理似品和自然的轨迹,我们还学习了一种生成模型,该模型预测了人类通常出现的区域,并强制执行要在这些区域内定义的环境场。广泛的实验表明,所提出的方法可以有效准确地产生可行和合理的轨迹。
translated by 谷歌翻译
我们介绍了延迟感知网络加速度(LANA) - 一种在神经结构上建立的方法,用于加速神经网络的神经结构搜索技术和教师学生蒸馏。 Lana由两个阶段组成:在第一阶段,它会使用层面特征映射蒸馏来列举每层教师网络的许多替代操作。在第二阶段,它解决了使用新颖的整数线性优化(ILP)方法的有效操作的组合选择。 ILP带来独特的属性,因为它(i)在几秒钟内执行NAS,(ii)轻松满足预算约束,(iii)在图层粒度上工作,(iv)支持巨大的搜索空间$ o(10 ^ { 100})$,超越先前的搜索方法,效率和效率。在广泛的实验中,我们表明Lana产生了由目标潜伏期预算限制的有效和准确的模型,同时比其他技术明显快。我们分析了三个流行的网络架构:高效的网络,高效网络和reses,并在压缩较大模型的较小模型的延迟级别时,实现所有型号(高达3.0 \%$)的准确性改进。 Lana通过GPU和CPU实现显着的加速(高达5美元\倍),以没有准确性下降。代码将很快分享。
translated by 谷歌翻译